<!DOCTYPE html>
<html lang="en">
<head>
	<meta charset="UTF-8">
	<meta http-equiv="X-UA-Compatible" content="IE=edge">
    <meta name="viewport" content="width=device-width, initial-scale=1">
	<title>将单词还原为词根 | Elasticsearch: 权威指南 | Elastic</title>
    <!-- Give IE8 a fighting chance -->
    <!--[if lt IE 9]>
    <script src="https://oss.maxcdn.com/html5shiv/3.7.2/html5shiv.min.js"></script>
    <script src="https://oss.maxcdn.com/respond/1.4.2/respond.min.js"></script>
    <![endif]-->
	<link rel="stylesheet" type="text/css" href="../static/styles.css" />
</head>
<body>
<div class="main-container">
    <section id="content">
        
        <div class="content-wrapper">
            <section id="guide" lang="zh_cn">
                <div class="container">
                    <div class="row">
                        <div class="col-xs-12 col-sm-8 col-md-8 guide-section">
                            <div style="color:gray; word-break: break-all; font-size:12px;">原文地址: <a href="https://www.elastic.co/guide/cn/elasticsearch/guide/current/stemming.html" rel="nofollow">https://www.elastic.co/guide/cn/elasticsearch/guide/current/stemming.html</a>, 版权归 www.elastic.co 所有<br/>
                            英文版地址: <a href="https://www.elastic.co/guide/en/elasticsearch/guide/current/stemming.html" rel="nofollow">https://www.elastic.co/guide/en/elasticsearch/guide/current/stemming.html</a>
                            </div>
                        <!-- start body -->
                  <div class="page_header">
<b>请注意:</b><br>本书基于 Elasticsearch 2.x 版本，有些内容可能已经过时。
</div>
<div id="content">
<div class="breadcrumbs">
<span class="breadcrumb-link"><a href="index.html">Elasticsearch: 权威指南</a></span>
»
<span class="breadcrumb-link"><a href="languages.html">处理人类语言</a></span>
»
<span class="breadcrumb-node">将单词还原为词根</span>
</div>
<div class="navheader">
<span class="prev">
<a href="sorting-collations.html">« 排序和整理</a>
</span>
<span class="next">
<a href="algorithmic-stemmers.html">词干提取算法 »</a>
</span>
</div>
<div class="chapter">
<div class="titlepage"><div><div>
<h2 class="title">
<a id="stemming"></a>将单词还原为词根<a class="edit_me edit_me_private" rel="nofollow" title="Editing on GitHub is available to Elastic" href="https://github.com/elasticsearch-cn/elasticsearch-definitive-guide/edit/cn/230_Stemming/00_Intro.asciidoc">edit</a>
</h2>
</div></div></div>
<p>大多数语言的单词都可以 <em>词形变化</em> ，意味着下列单词可以改变它们的形态用来表达不同的意思：</p>
<div class="ulist itemizedlist">
<ul class="itemizedlist">
<li class="listitem">
<em>单复数变化</em> ：      fox 、foxes
</li>
<li class="listitem">
<em>时态变化</em> ：       pay 、 paid 、 paying
</li>
<li class="listitem">
<em>性别变化</em> ：      waiter 、 waitress
</li>
<li class="listitem">
<em>动词人称变化</em> ：      hear 、 hears
</li>
<li class="listitem">
<em>代词变化</em> ：        I 、 me 、 my
</li>
<li class="listitem">
<em>不规则变化</em> ：      ate 、 eaten
</li>
<li class="listitem">
<em>情景变化</em> ：        so be it 、 were it so
</li>
</ul>
</div>
<p>虽然词形变化有助于表达，但它干扰了检索，一个单一的词根 <em>词义</em> （或意义）可能被很多不同的字母序列表达。
英语是一种弱词形变化语言（你可以忽略词形变化并且能得到合理的搜索结果），但是一些其他语言是高度词形变化的并且需要额外的工作来保证高质量的搜索结果。</p>
<p><em>词干提取</em> 试图移除单词的变化形式之间的差别，从而达到将每个词都提取为它的词根形式。
例如 <code class="literal">foxes</code> 可能被提取为词根 <code class="literal">fox</code> ，移除单数和复数之间的区别跟我们移除大小写之间的区别的方式是一样的。</p>
<p>单词的词根形式甚至有可能不是一个真的单词，单词 <code class="literal">jumping</code> 和 <code class="literal">jumpiness</code> 或许都会被提取词干为 <code class="literal">jumpi</code> 。
这并没有什么问题—​只要在索引时和搜索时产生相同的词项，搜索会正常的工作。</p>
<p>如果词干提取很容易的话，那只要一个插件就够了。不幸的是，词干提取是一种遭受两种困扰的模糊的技术：词干弱提取和词干过度提取。</p>
<p><em>词干弱提取</em> 就是无法将同样意思的单词缩减为同一个词根。例如， <code class="literal">jumped</code> 和 <code class="literal">jumps</code> 可能被提取为 <code class="literal">jump</code> ，
但是 <code class="literal">jumping</code> 可能被提取为 <code class="literal">jumpi</code> 。弱词干提取会导致搜索时无法返回相关文档。</p>
<p><em>词干过度提取</em> 就是无法将不同含义的单词分开。例如， <code class="literal">general</code> 和 <code class="literal">generate</code>  可能都被提取为 <code class="literal">gener</code> 。
词干过度提取会降低精准度：不相干的文档会在不需要他们返回的时候返回。</p>
<div class="sidebar">
<div class="titlepage"><div><div>
<p class="title"><strong>词形还原</strong></p>
</div></div></div>
<p>原词是一组相关词的规范形式，或词典形式 — <code class="literal">paying</code> 、 <code class="literal">paid</code> 和 <code class="literal">pays</code> 的原词是 <code class="literal">pay</code> 。
通常原词很像与其相关的词，但有时也不像 — <code class="literal">is</code> 、 <code class="literal">was</code> 、 <code class="literal">am</code> 和 <code class="literal">being</code> 的原词是 <code class="literal">be</code> 。</p>
<p>词形还原，很像词干提取，试图归类相关单词，但是它比词干提取先进一步的是它企图按单词的 <em>词义</em> ，或意义归类。
同样的单词可能表现出两种意思—例如， <em>wake</em> 可以表现为 <em>to wake up</em> 或 <em>a funeral</em> 。然而词形还原试图区分两个词的词义，词干提取却会将其混为一谈。</p>
<p>词形还原是一种更复杂和高资源消耗的过程，它需要理解单词出现的上下文来决定词的意思。实践中，词干提取似乎比词形还原更高效，且代价更低。</p>
</div>
<p>首先我们会讨论下两个 Elasticsearch 使用的经典词干提取器 — <a class="xref" href="algorithmic-stemmers.html" title="词干提取算法">词干提取算法</a> 和 <a class="xref" href="dictionary-stemmers.html" title="字典词干提取器">字典词干提取器</a> — 并且在 <a class="xref" href="choosing-a-stemmer.html" title="选择一个词干提取器">选择一个词干提取器</a> 讨论了怎么根据你的需要选择合适的词干提取器。
最后将在 <a class="xref" href="controlling-stemming.html" title="控制词干提取">控制词干提取</a> 和 <a class="xref" href="stemming-in-situ.html" title="原形词干提取">原形词干提取</a> 中讨论如何裁剪词干提取。</p>






</div>
<div class="navfooter">
<span class="prev">
<a href="sorting-collations.html">« 排序和整理</a>
</span>
<span class="next">
<a href="algorithmic-stemmers.html">词干提取算法 »</a>
</span>
</div>
</div>

                  <!-- end body -->
                        </div>
                        <div class="col-xs-12 col-sm-4 col-md-4" id="right_col">
                        
                        </div>
                    </div>
                </div>
            </section>
        </div>
    </section>
</div>
<script src="../static/cn.js"></script>
</body>
</html>